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利用 词 项 语义 共 现 和 社团 划分 发 现 微 博 热点 事件 


李晓红 ， 孔 文 文 ， 马 博 朝 ， 马 慧 芳 
(西北 师范 大 学 计算 机 科学 与 工程 学 院 ,， 兰州 730070) 


摘 要 : 针对 传统 词 项 之 间 语 义 关 系 抽取 难以 适用 于 微 博 ， 寻 致 发 现 微 博 热 点 事件 不 敏感 的 问题 ， 提 出 一 种 基于 词 
项 语义 共 现 和 社团 划分 的 方法 发 现 热 点 事件 。 首 先 利 用 热度 定义 对 微 博 数 据 进行 初次 筛选 ， 通 过 构建 共 现 词 项 图 来 
模拟 词 项 间 的 语义 相关 性 ， 并 结合 修改 的 tfidf 公式 计算 词 项 间 的 语义 相关 度 ; 然后 借助 社区 划分 和 模块 度 的 概念 
对 词 项 图 进行 划分 , 完成 词 项 聚 类 ,进而 获得 热点 事件 。 实验 结果 表明 ,与 同类 方法 相 比 ， 所 提 方 法 的 准确 率 较 高 ， 
发 现 的 热点 事件 与 实时 事件 基本 保持 一 致 ， 具 有 较 好 的 热点 识别 效果 。 

关键 词 : 热度 ; 亲密 度 ; 语义 相关 性 ; 热点 事件 ; 模块 度 
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Title Microblog hot topic detection using lexical semantic co-occurrence and community partition 


Li Xiaohong, Kong Wenwen, Ma Yuyin, Ma Huifang 
(College of Computer Science & Engineering, Northwest Normal University, Lanzhou 730070, China) 


Abstract: Due to difficulty to apply traditional method that extracts semantic relations between terms to microblog, which 
makes hot event detection not sensitive, this paper proposed a new method based on semantic co-occurrence of terms and 
community partition to find hot events. First, it utilized defined hotness to filter micro-blog data initially, then combined 
tf-idf formula with semantic relationships between items calculated by computing affinity score between two adjacent nodes 
on graph to harvest semantic relevancy between terms. Next, it introduced the idea of community partition to design the 
algorithm for word clustering, which made a series of microblog hot events finally obtained. Experimental results show the 
effectiveness of this method. Compared with kindred methods, this method has a higher accuracy, and hot event find is 
consistent with the real-time event basically, so this method can detect the microblog hot events effectively. 

Key words: hot degree; affinity score; semantic relatedness; co-occurrence graph; modularity 


0 引言 在 识别 突 发 词 的 效率 就 会 比较 低下 。 

号 b) 以 突 发 特征 为 中 心 的 方法 。 先 抽取 突 发 特征 并 对 其 进 
微 博 作为 一 种 新 兴 的 传播 载体 ， 已 经 成 为 民众 表达 与 情 。” 行 分 组 , 然后 使 用 突 发 特征 组 进行 突 发 事件 的 识别 。Fu 等 人 
的 重要 窗口 。 它 以 简短 快捷 、 内 容 丰富 、 用 户 “ 草 根 化 传 ” 乌 基 于 语言 和 主题 模型 ， 通 过 相 邻 时 间 间 隔 之 间 的 情绪 分 布 
播 速 度 快 等 特点 ,也 成 为 了 热点 事件 产生 和 讨论 的 重要 场所 。 ”语言 模型 的 差异 来 发 现 微 博 热 门 话题 ,Yang 等 人 中 使 用 基于 
其 是 微 博 用 户 的 关注 、 转 发 和 评论 等 行为 通常 会 助 推 微 博 。 时 间 窗 的 分 析 方 法 来 检测 突 发 特征 ,然后 使 用 相似 度 传播 AP 
事件 的 传播 。 随 着 微 博信 息 泛滥 成 灾 ， 大 量 有 价值 的 数据 被 ”算法 对 突 发 特征 进行 聚 类 。 类 似 地 ， 磺 敏 等 人 叫 对 关键 词 定 
淹没 ， 用 户 想 找到 自己 感 兴趣 的 话题 变 得 力不从心 。 因 此 ， 义 加 权 公 式 ,并 引入 滑动 窗口 , 以 实时 监控 热点 事件 的 发 生 。 
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如 何 从 海量 微 博 数据 中 挖掘 出 有 价值 的 信息 成 为 了 计算 机 领 。” 刘 业 政 等 人 外 提出 利用 单个 话题 构建 表征 话题 属性 的 热度 

域 的 研究 热点 。 同 时 ， 微 博 热 点 事件 发 现 作为 网 络 与 情 监控 ” 线 ， 然 后 对 热度 曲线 进行 分 类 建 模 ， 最 后 在 分 类 模型 上 使 用 

的 重要 分 支 ， 也 受到 了 国内 外 学 者 的 关注 ， 有 具有 重要 的 研究 。 加 权 投 票 规 则 来 预测 新 话题 是 否 会 发 展 成 为 热门 话题 。 上 述 

意义 。 儿 种 方法 在 检测 突 发 事件 时 只 是 理论 上 提高 了 事件 发 现 的 性 
前 ， 针 对 微 博 热 点 事件 发 现 的 研究 已 有 不 少 成 果 ,， 主 。 能 ,但 在 实际 应 用 中 并 不 能 得 到 很 好 的 话题 发 现 效 果 ， 其 最 

要 可 分 为 以 下 两 类 : 根本 原因 是 事件 发 现 过 程 中 ， 话 题 会 随时 间 变 化 产生 话题 漂 

a) 以 文本 为 中 心 的 方法 帆 。 先 进行 文本 聚 类 ， 表 在 类 中 移 现 象 。 
取出 突 发 特征 ， 从 而 识别 突 发 事件 。 比 如 ， 陈 羽 中 等 人 日 为 了 提高 微 博 热点 事件 检测 的 准确 性 并 降低 复杂 度 ， 本 


提出 TCMLPA 聚 类 算法 对 微 博 的 热点 词语 进行 聚 类 , 同时 考 文 提出 了 一 种 基于 特征 词语 义 相 关 性 和 社团 结构 的 微 博 热点 
虑 聚 类 的 时 效 ， 从 而 获得 热点 话题 ， 并 且 提 高 了 热点 发 现 的 事件 发 现 算 法 (using lexical semantic co-occurrence and 
精度 。 文 献 [3, 4] 分 别致 力 于 不 同 的 聚 类 算法 ， 如 K_SC 聚 类 community structure to find microblog hot event， LSCaCS)。 
算法 、SEPPM 模型 ， 对 网 络 热点 事件 进行 发 现 和 提取 ， 取 得 lL 体 地 ， 通 过 构建 无 向 带 权 词 项 图 获取 词 项 之 间 潜 在 的 语义 
了 一 定 的 成 效 。 但 是 一 方面 ， 由 于 微 博 内 容 的 简短 ， 严 重 的 关系 ， 并 计算 语义 强度 ， 然 后 利用 社团 发 现 和 模块 度 思想 在 
数据 稀疏 问题 ; 另 一 方面 ， 微 博 含 有 很 多 噪声 数据 ， 聚 类 后 图 上 完成 词 的 聚 类 ， 实 现 热点 词 与 热点 事件 的 对 应 。 算 法 流 
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程 如 图 1 所 示 。 为 评论 次 数 。 通 过 热度 的 定义 可 以 初步 判断 微 博 所 描述 的 事 
件 成 为 热点 事件 的 可 能 性 ， 且 热度 与 微 博 内 容 无 关 。 
本 00000 1.2 词 项 间 的 亲密 度 
计 个 用 户 用 村 发 什 的 贡献 定义 2 4 度 距 离 。 设 函 数 distancel(ti, 4 mb) 可 计算 微 博 
| 计 委 法 划 | 向 过 所 | ; mp 中 特征 词 与 坊 之 间 所 包含 的 词 项 个 数 。 若 式 (4) 成 立 , 则 
| | 定义 微 博 mb 中 特征 词 与 之 间 的 距离 为 4 度 距离 。 
人 分 词 等 预 处 理 | d = distancelti,t;, mb) (4) 
例如 ， 微 博 mb1=“ 腾 讯 公司 董事 会 主席 兼 CEO 马化腾 ” 


分 词 后 所 得 词 项 集合 为 :{ 腾 讯 , 公司 , 董事 会 , 主席 ,CEO， 
马化腾 }， 则 distance( 腾 讯 ， 马 化 腾 , mb1)=4， 表 示 在 mbl 中 
“腾讯 ”和 “马化腾 ”之 间 为 4 度 距 离 ，distance( 腾 讯 ， 公 司 ， 
mb1)=0， 表 示 “ 腾 讯 ”" 和 “公司 ”之 间 为 0 度 距离 。 

定义 3 亲密 度 。 给 定 微 博 mbp， 若 词 项 # 与 之 间 为 4 


Vy 
LSCaCS 算 法 长 一 语义 关联 矩阵 A 


建立 词 频 图 TG 
| [计算 词 对 之 间 的 亲密 度 
AS | TO 过 人 
| | 统计 TG 中 项 点 的 热度 辑 接 短 阵 A” 修改 后 的 ff-idf 公 式 | 
| degree(V) | 


图 1 微 博 热点 事件 发 现 算法 流程 


Fig.1 Flow chart of micro-blog hot event detection algorithm 


1 ”相关 知识 


首先 给 出 本 文 用 到 的 符号 定义 ， 如 表 1 所 示 。 
表 1 符号 含义 表 
Table 1 Notations 
符号 定义 
MB= {mbi,mby,...,mbn} 微 博 的 数据 集 
MTI={ti,t,...,tu} 村 征 词 集 
mobi 第 i 条 微 博 
N 微 博 数据 集 大 小 
M 特征 词 数目 ， 图 G 的 顶点 数 
AS(t» tmb) 4 与 5 在 微 博 mb 中 的 亲密 度 
1.1 微 博 的 热度 
微 博 对 热点 事件 的 敏感 性 使 其 在 一 定 程度 上 可 以 反映 热 


点 事件 。 一 般 来 说 ， 关 注 度 高 的 微 博 ， 其 转发 数 和 评论 数 会 
逐渐 上 升 ， 且 在 较 短 时 间 内 传播 。 因 此 ， 需 要 一 个 指标 来 度 
量 微 博 被 关注 的 程度 。 

假设 用 户 ui 发 布 了 一 条 微 博 mb， 被 用 户 wj 转发 ， 则 用 
户 wj 对 微 博 转 发 值 的 贡献 记 为 cret(mb, wj)。 


否则 


1 
cao flu) 若 w 是 i 粉丝 (1) 
同 理 ， 用 户 wj 对 微 博 评论 值 的 贡献 用 ccom(mb， ww) 表 示 
如 下 : 
1 否则 
eo) -| jo) 若 册 是 忆 ' 粉 丝 (2) 
_ Count(u;) CR _ > AT 
其 中 : ff(u,u)) CO 定义 为 用 户 wj 对 用 户 wi 的 关注 度 ; 
count(ui) 表 示 用 户 wi 所 关注 用 户 的 数目 。 基 于 式 (1) 和 (2)， 给 
出 热度 的 定义 。 
定义 1 热度 。 热度 指 在 单位 时 间 内 ， 所 有 用 户 对 该 微 
博 的 转发 值 贡献 cret(xzp， 切 与 评论 值 贡 献 ccom(mb， wy) 加权 


和 的 平均 值 。 


My eretmb, uj)+(1— 2 eeonom uj) 


Hot(mb)= 一 汪 TA G3) 


其 中 : 4 为 调节 参数 ， 且 0<4<1， 1 为 微 博 mb 的 转发 次 数 ;有 


度 距离 ， 则 词 项 与 在 4 度 距 离 上 的 亲密 度 定 义 为 式 (5) 中 
AS(ti, 娘 的 值 。 

AS(ti,t;)=ny Xe (5) 
其 中 : na 表示 在 数据 集中 特征 词 #4 与 5y 之 间距 离 为 d 度 距离 
的 微 博 数 。 
词 的 亲密 度 AS(154) 意味 着 : a) 如 果 两 个 词 项 共 现 的 距 
离 不 同 , 则 它们 亲密 的 程度 会 有 所 不 同 ; b) 如 果 两 个 词 经 常 
共同 出 现 , 则 这 两 个 词 在 意义 上 是 相互 关联 的 , AS(ti, 5) 越 高 ， 


关系 越 紧 密 。 与 传统 的 共 现 强度 计算 比较 ， 该 方法 更 为 合理 
中 。 
1.3 ”模块 度 

许多 大 规模 复杂 网 络 是 由 若干 个 “社区 ”或 “组 ”构成 的 。 


一 个 相对 好 的 划分 是 每 个 社团 内 部 节点 间 的 连接 非常 紧密 ， 
社团 之 间 的 连接 相对 比较 稀疏 。 而 模块 度 9 就 是 衡量 一 个 社 
区 划分 好 坏 的 常用 指标 ， 计 算 公 式 如 下 


Cs pp -gC, Cj (6) 


中 m= 了 六 表示 图 中 所 有 边 上 的 权重 之 和 ;Py 表示 顶点 


i 和 顶点 j 之 间 边 上 的 权重 : “=2 久 表示 所 有 与 节点 i 相连 


的 边 的 权重 之 和 ，C 表 示 节 点 所属 的 社区 。 
0 isj 
B20 | otherwise (7) 


2 值 在 0~1 之 间 。2 值 越 大 ， 图 划分 的 社区 结构 准确 度 
越 高 ，0 最 大 时 说 明 图 划分 较 理 想 。 
2 ”发 现 热点 事件 
2.1 构建 词 项 图 并 获取 语义 相关 度 


将 MT 中 的 词 映射 为 图 中 的 顶点 ， 词 项 之 间 的 共 
用 无 向 带 权 图 


现 关系 
TG=(V， 妃 来 表示 ， 则 顶点 集合 为 
V={v4,v2,…,vm}， 其 中 顶点 vi 为 特征 词 项 〈 注 : 本 文 余 下 部 
分 使 用 vi 表示 词 #s) 。 如 果 两 个 词 vi、 vi 来自 同一 微 博 ， 则 将 
vi、vj 之 间 相 连 构 成 一 条 边 (vi, vj)。 设 图 TG 的 邻接 矩阵 表示 
为 4，4' 中 的 元 素 记 为 wy 
先 , 计算 4' 中 元 素 wi 的 值 。 wj 是 边 (vi, vj) 上 的 权 值 ， 

表示 顶点 vi，vi 在 微 博 数据 集中 的 语义 相关 度 ， 其 值 可 通过 
它们 在 数据 集中 的 亲密 度 之 和 计算 得 到 [ 归 。 考 虑 到 距离 过 大 


时 ， 特 征 词 之 间 的 共 现 对 它们 的 亲密 度 没 有 意义 ， 故 本 文 实 
验 取 0<d<6。 


| ,V)) Viv)eE 


0 otherwise 


(8) 
w=wj: ，4' 为 对 称 和 矩阵 。 接 下 来 ， 对 顶点 之 间 的 语义 
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关联 关系 进行 归 一 化 和 非 对 称 化 处 理 。 通 常 ， 如 果 两 个 词 在 
数据 集中 越 是 频繁 且 近 距离 的 共同 出 现 ， 则 它们 之 间 的 语义 
关联 性 就 越 高 ， 同 时 ， 那 些 几乎 与 所 有 特征 词 都 具有 亲密 关 


系 的 词 项 是 没有 意义 的 ， 即 这 样 的 亲密 关系 在 语义 相关 度 模 
型 中 并 不 重要 ， 必 须 进 行 惩罚 。 因 此 ， 综 合 考虑 词 项 亲密 度 
对 微 博 的 重要 性 和 其 在 数据 集中 的 普遍 性 ， 最 大 程度 地 挖掘 
出 亲密 度 对 微 博 热点 事件 检测 的 语义 贡献 。 同 时 结合 文档 逆 
文档 频率 (tid 所 表示 的 含义 ， 对 其 计算 公式 进行 适当 更 改 
(11， 推 得 式 (7)。 


Ww, We elog M4 
和 Pw’ degree(v;) (9) 


其 中 :degree(wi) 表 示 顶 点 vi 的 度 ， 也 就 是 与 词 项 vi 具有 亲密 
关系 的 总 词 数 ; 0 用 来 惩罚 几乎 与 所 有 词 项 都 亲密 
的 特征 词 。 将 式 (7) 应 用 于 4' 中 元 素 的 值 (1, 最 后 得 到 非 对 称 
和 矩阵 4。 


Wi Wi Wim 
A= Wa Ws … Wm 
Wal Wha2 … Wum 
RP: Wij ¥ Wii ， 日 0<wrs1l， Wi 越 大 ， 该 词 对 的 主题 预测 


能 力 就 越 强 ， 特 别 地 ，wj=0， 可 将 图 TG 中 对 应 词 对 之 间 原 
有 的 边 删 除 , 以 此 达到 简化 图 结构 、 降 低 运 算 复杂 度 的 目的 。 
本 文 后 面 的 内 容 将 基于 图 TG 展开 。 
2.2 热点 事件 发 现 算法 描述 

热点 事件 发 现 通常 使 用 的 方法 大 部 分 以 文档 为 聚 类 对 象 ， 
聚 类 结果 为 文档 秘 。 而 本 文 利用 社区 发 现 思 路 ， 以 词 项 图 作 
为 划分 对 象 ， 结 合 词 项 间 的 语义 关联 关系 ， 简 化 聚 类 过 程 ， 
提出 了 一 种 基于 特征 词语 义 相 关 性 和 社团 结构 的 微 博 热点 事 
个 发 现 算法 LSCaCS， 从 而 达到 发 现 热 点 事件 的 目的 。 
首先 ,初始化 社区 结构 ， 即 将 图 G 中 每 一 个 顶点 均 看 做 
为 一 个 独立 的 社区 ， 先 在 矩阵 A 中 查找 最 大 值 ， 假 设 
max(4)=wy, 将 wi 对 应 的 两 个 顶点 划分 在 同一 个 社区 ;然后 ， 
以 这 对 节点 为 种 子 扩展 社区 ， 每 扩展 一 个 节点 计算 一 次 模块 
度 增 量 AO， 若 AO>0， 则 扩展 成 功 。 重 复 这 个 过 程 ， 直 到 
nodestack 为 空 为 止 。 栈 nodestack 用 来 保存 待 扩展 的 社区 节 
点 ,用 processed 保存 已 发 现 的 社区 顶点 。 具 体 的 算法 LSCaCS 
步骤 如 下 : 
输入 : 语义 关系 矩阵 4， 参 数 7。 

1: 初始 化 nodestack=@, processed=@; 

2: 查找 矩阵 A 中 元 素 的 最 大 值 ， 若 max(A)=wii， 则 执 
行 入 栈 操作 : push(nodestack,(vi, i))，push(nodestack,(v;, j)); 

3: 置 wi=0; 

4: 循环 ， 重 复 执行 以 下 操作 ， 直 到 nodestack 为 空 : 

4.1 出 栈 : pop(nodestack, (vr, TD); 

4.2 processed= processed Uvx; 

4.3 循环 : 对 4 中 第 7 行 的 元 素 依 次 执行 下 列 操作 ， 

ifwr>B 且 weprocessed， 则 执行 : 

4.3.1 计算 w Uprocessed 后 所 构成 社区 的 AO; 

4.3.2 if AQ >0, 则 push(nodestack, (vx, D)); 

5: return ”processed. /结束 

本 算法 结束 后 得 到 一 个 社区 ， 即 对 应 一 个 事件 徐 ， 并 取 
top-K 的 权重 对 应 的 顶点 来 描述 热点 事件 。 若 要 获取 所 有 的 
热点 事件 ， 则 需 更 新 整个 网 络 。 重 复 上 述 操作 ， 直 到 所 有 的 
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热点 事件 被 发 现 。 
3 ”实验 结果 及 分 析 


3.1 实验 数据 

人 工 采 集 了 新 浪 微 博 从 2017 年 1 月 ~6 月 发 表 的 微 博 作 
为 实验 数据 。 为 保证 与 真实 话题 最 大 程度 上 的 一 致 性 ， 采 样 
时 人 工 加 入 了 适量 的 噪声 数据 ， 构 造 了 一 个 共 包含 3 225 条 
微 博 、8 类 热点 事件 的 有 噪声 的 微 博 数据 集 ， 其 中 描述 事件 
的 微 博 2 541 条 ， 噪 声 数据 684 条 。 对 其 进行 数据 清洗 、 分 
词 、 去 停 用 词 等 预 处 理 操 作 ， 并 根据 词 项 之 间 关 系 的 紧密 性 
进行 了 孤立 词 简 选 ， 最 终 保 留 了 28 600 个 词 项 。 实 验 数据 集 


如 表 2 所 示 。 
表 2 实验 数据 集 
Table 2 Experimental data sets 
平均 平均 平均 平均 
类 别 ”人 微 博 数 类 别 。 微 博 数 
评论 数 ”转发 数 评论 数 ”转发 数 
事件 1 387 1566 526 事件 5 366 558 212 
事件 2 402 3121 957 事件 6 390 2026 336 
事件 3 406 1314 6862 事件 7 421 951 489 
事件 4 440 8175 7448 事件 8 413 1292 1025 
3.2 评价 指标 
本 文 引进 NM 和 4RIN 引 两 个 评价 指标 对 实验 结果 进行 


综合 评价 。 并 设 真实 类 别 为 C={ci,...cs,...}， 聚 类 结果 为 
Q={01, .Opb ...}o 

NMI 的 取 值 为 [0, 1]，NMI 值 越 大 , 表示 事件 发 现 的 结果 
越 接 近 真 实情 况 。 则 NMI 的 定义 如 下 ， 其 中 : Pp(@.,c)) 是 联 
合 概率 ; 7(Q,0) 是 互信 息 。 


Pi,c;) 
p(@) Pp(c)) 


1(®0) = po,c)log (10) 


, 1(Q,C) 
Ppl) ogplo) + dpc)logpe) (1D) 


NMI(Q,C)=-2 


ARI 也 用 来 评价 聚 类 的 效果 ， 取 值 为 [-1，1]， 衡 量 的 是 
两 个 数据 分 布 的 吻合 程度 ， 值 越 大 ， 意 味 着 聚 类 结果 与 真实 
情况 越 吻合 。 定 义 如 式 (13) 所 示 。 

RI—E(RI) 


~ max(RD) — ECRD (12) 
a+b 
AL = C2 (13) 


其 中 : a 表示 在 C 与 8 中 都 是 同类 别 的 元 素 对 数 ; 2 表示 在 
C 与 2 中 都 是 不 同类 别 的 元 素 对 数 。 

3.3 实验 结果 与 分 析 
通过 将 发 现 的 事件 结果 与 真实 发 生 的 网 络 事件 相 比较 来 
能 。 本 文 设计 了 三 组 实验 来 验证 热点 事件 发 现 
算法 的 有 效 性 。 实 验 1 调整 微 博 热度 和 热点 事件 发 现 算法 中 
要 的 参数 值 ， 以 观察 对 热点 事件 结果 的 影响 ， 实 验 2 利用 
题 ， 并 与 真实 热点 事件 进行 了 比较 ， 实 
验 3 对 本 文 方法 与 已 有 同类 方法 的 热点 事件 检测 结果 进行 了 


Im 
ut 


实验 1 研究 参数 4 和 p 取 不 同 值 对 热点 事件 中 主题 词 
提取 结果 的 影响 。 参数 入 权衡 cret(mp, wy) 和 ccom(mpb, wj) 这 两 
个 因素 对 微 博 热 度 的 影响 ，pB 考虑 特征 词 之 间 关 系 的 紧密 程 
度 (语义 相关 度 ) 对 热点 主题 词 提取 贡献 的 大 小 。 从 0.01 到 
0.08 变化 ,4 选取 了 三 个 值 ， 分 别 是 0.48、0.5 和 0.52。 实 验 
结果 如 图 2、3 所 示 。 
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图 2 参数 对 NMI 的 影响 
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Fig.2 Influence of varied parameters on NMI 
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图 3 参数 对 ARI 的 影响 


Fig.3 Influence of varied parameters on 4R7 


从 图 2 和 3 均 可 以 看 出 ， 一 方面 ,4 取 值 不 同时 对 应 的 


文献 [15] 提 出 的 组 合 模 型 方法 (MCHF) 与 本 文 的 LSCaCS 方法 


实验 3 ”选择 文献 [1 各 的 离散 粒子 群 优化 (DPSO) 算 法 和 


T 


在 数据 集 上 进行 了 实验 和 结果 对 比分 析 。 其 中 ，DPSO 算法 


通过 对 词语 互信 息 及 内 外 关联 词 信息 的 挖掘 ， 利 用 离散 粒子 
群 优化 算法 从 寻 优 角度 发 现 微 博 热 点 话题 。MCF 方法 提出 使 
用 主题 模型 提取 出 微 博 主题 ， 引 入 词 激活 力 模 型 计算 词 之 间 


的 词 激活 力 ， 利 用 词 激 活力 矩阵 生成 热点 事件 。 实 验 对 比 结 
果 如 图 4 所 示 。 
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图 4 三 种 方法 实验 结果 对 比 


Fig.4 Comparison among experimental results of three methods 


由 图 4 可 以 看 出 ,与 其 他 两 种 方法 相 比 ,本文 方法 的 NMI 


和 4RT 略 高 。 首 先 ， 本 文 所 提 的 方法 充分 挖掘 了 词 项 之 间 表 
层 和 隐 含 的 语义 关系 ， 不 但 考虑 词 项 之 间 的 共 现 ， 而 且 还 考 
虚 了 不 同 亲 密 关系 的 共 现 , 使 得 微 博 语 义 表示 更 清楚 更 仔细 ; 


NMI 和 ARI 也 不 相同 ， 就 意味 着 热点 事件 的 检测 中 ， 微 博 转 


发 值 和 评论 值 对 其 贡献 不 同 ， 本 实验 结果 发 现 转发 值 的 贡献 
更 大 。 男 一 方面 ， 当 p<0.034( 图 3 中 p<0.33) 时 ，NMI 和 ARI 
的 性 能 曲线 均 呈 上 升 趋势 ; 当 p=0.034(B=0.33) 时 , NMI 和 ARI 
达到 最 高 值 .但 是 随 着 8 值 的 持续 增加 , 性 能 曲线 趋 于 下 降 。 
特别 地 ， 当 8 超过 0.05(0.04) 后 ， 下 降 速 度 变 得 更 快 ， 说 明 词 
项 间 关 系 的 亲密 程度 对 热点 事件 主题 词 的 准确 度 有 较 大 的 影 


响 。 


表 3 本 文 方法 检测 出 的 热点 事件 


Table 3 Comparison between real events and hot events of this method 


detects 


真实 热点 话题 


本 文 检测 出 的 热点 词汇 


度 不 再 是 联网 公司 
肉松 饼 里 的 肉松 是 棉花 
渤 完 全 可 以 去 说 相声 


《欢乐 颁 》 安 迪 两 任 男友 


尔 康 制 药 销售 藏 惊人 秘密 


儿子 染 上 毒品 和 赌博 
柯 洁 高 度 评价 AlphaGo 
女子 酒店 遇 袭 事件 


度 互联 网 公司 417 人 工 智能 李彦宏 
肉松 饼 棉花 ， 泡 水 ”老婆 饼 燃烧 

幽默 尴 粹 说 相声 黄 渤 后 云 有 情商 
欢乐 颂 安 迪 男友 喜欢 爱 差别 小 包 


尔 康 销 秘密 ”经 销 商 ” 紫薇” 制药 


销售 
毒 交 儿子 痛心 父母 卖房 ”还 债 
图 棋 ” 柯 洁 41phaGo 评价 ” 输 棋 
完美 女子 酒店 电梯 ”过 多 ”真相 


实验 2 基于 实验 1 的 结果 ， 本 实验 设 定 参数 的 值 为 
4=0.475，B=0.03 ， 构 建 基于 微 博 数据 的 词 项 之 间 的 语义 关 


行 提取 。 


实验 结果 如 表 3 所 示 。 实 验 选取 所 得 事件 簇 中 足以 描述 
了 件 主题 的 词 项 来 表征 发 现 的 热点 事件 ， 并 与 权威 机 构 发 布 


的 ; 
件 与 真实 网 络 上 的 热点 事件 基本 吻合 ， 说 明 本 文 所 提出 的 发 


中 ， 


其 次 ， 基 于 原始 数据 集 在 构建 推导 词 项 语义 关系 矩阵 的 过 程 


将 一 些 不 重要 的 数据 进行 了 删除 ， 故 干扰 较 少 。 基 于 以 


上 原因 ， 使 得 本 文 方法 得 到 的 结果 较 好 。 因 微 博 有 内 容 短 、 
表述 不 规范 、 品 声 多 等 缺陷 ， 导 致 其 他 两 种 方法 选取 的 主题 
词 数量 不 足 、 质 量 不 高 ， 最 终 导致 事件 发 现 的 结果 不 佳 。 


4 


结束 语 


本 文 提出 了 一 种 基于 


l 
t 


特征 词语 义 相 关 性 和 和 


团结 构 的 微 


博 热 点 事件 发 现 算法 ， 主 要 设计 思路 是 通过 构建 无 向 带 权 词 


项 图 获取 词 项 之 间 显 示 的 和 隐 含 的 语义 关系 ,计算 语义 强度 ， 


的 3 


或 词汇 本 体 ， 进 而 提升 热点 事件 发 现 的 准确 性 。 


并 构建 语义 关联 关系 矩阵 ， 同 时， 引入 社区 划分 的 思想 ， 利 
用 LSCaCS 算法 对 词 项 进行 聚 类 , 从 而 获得 寺 
实验 结果 表明 ， 发 现 的 热点 话题 与 实时 事件 保持 一 致 ， 具 有 
较 好 的 热点 识别 效果 。 今 后 可 以 围绕 降低 特 点 
的 数量 、 随 机 游 走 模型 指标 的 初始 化 以 及 社团 划分 收敛 条 件 


热点 事件 的 集合 。 


征 词 集中 离 群 点 


剖 定 标准 进行 相关 研究 ， 甚 至 可 以 尝试 引入 专业 领域 词典 
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